最近,用于语音处理的自我监督模型最近作为语音处理管道中流行的基础块出现。这些模型在未标记的音频数据上进行了预训练,然后用于语音处理下游任务,例如自动语音识别(ASR)或语音翻译(ST)。由于这些模型现在都用于研究和工业系统,因此有必要理解某些特征在培训数据中的性别分布等特征所引起的影响。我们以法语为我们的调查语言,训练和比较性别特定的WAV2VEC 2.0模型与在其预训练数据中包含不同性别平衡的模型。通过将这些模型应用于两个语音到文本下游任务:ASR和ST进行比较。结果显示了下游集成的类型。在微调端到端ASR系统之前,我们使用性别特定的预训练观察到较低的总体性能。但是,当将自我监督模型用作特征提取器时,总体ASR和ST结果遵循更复杂的模式,在这种模式下,平衡的预训练模型不一定会带来最佳结果。最后,我们粗制的“公平”度量标准(男性测试集之间测量的相对性能差异)并未显示出从平衡到特定性别的预训练的Preaded Wav2Vec 2.0模型的强烈变化。
translated by 谷歌翻译
In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
translated by 谷歌翻译
能够收集用户声音的强大个人设备的广泛开设了建立语音识别系统(ASR)的扬声器或参与ASR的协作学习的机会。在这两种情况下,可以构建个性化的声学模型(AM),即微调AM与特定扬声器数据。自然出现的问题是,个性化声学模型的传播是否可以泄漏个人信息。在本文中,我们表明可以通过仅利用本地适应该扬声器的神经声学模型的重量矩阵变化来检索扬声器的性别,而且还可以检索扬声器的性别,而且还可以检索他的身份。顺便提及,我们观察到在语音处理的背景下可以有助于解释深度神经网络的现象。在使用中间层时,只能使用第一层和扬声器验证几乎肯定地识别性别。我们对具有HMM / TDNN模型的TED-Lium 3数据集的实验研究显示了性别检测的95%,并且通过仅利用可以交换的个性化模型的权重,扬声器验证任务的相同错误率为9.07%而不是用户数据。
translated by 谷歌翻译
本文调查了在自动语音识别(ASR)中有效地从个性化扬声器适应的神经网络声学模型(AMS)中检索扬声器信息。这个问题在联合学习的ASR声学模型的上下文中尤为重要,其中基于从多个客户端接收的更新在服务器上学习了全局模型。我们提出了一种方法来根据所谓指示器数据集的神经网络足迹分析神经网络AMS中的信息。使用此方法,我们开发了两个攻击模型,该模型旨在从更新的个性化模型推断扬声器身份,而无需访问实际用户的语音数据。TED-Lium 3语料库的实验表明,所提出的方法非常有效,可以提供1-2%的相同错误率(eer)。
translated by 谷歌翻译
Geometric camera calibration is often required for applications that understand the perspective of the image. We propose perspective fields as a representation that models the local perspective properties of an image. Perspective Fields contain per-pixel information about the camera view, parameterized as an up vector and a latitude value. This representation has a number of advantages as it makes minimal assumptions about the camera model and is invariant or equivariant to common image editing operations like cropping, warping, and rotation. It is also more interpretable and aligned with human perception. We train a neural network to predict Perspective Fields and the predicted Perspective Fields can be converted to calibration parameters easily. We demonstrate the robustness of our approach under various scenarios compared with camera calibration-based methods and show example applications in image compositing.
translated by 谷歌翻译
从具有高隐私要求的领域(例如医疗干预空间)获得的真实数据较低,并且收购在法律上很复杂。因此,这项工作提供了一种以医疗服装为例为医疗环境创建合成数据集的方法。目的是缩小合成数据和真实数据之间的现实差距。为此,使用虚幻的引擎插件或Unity比较了3D扫描服装和设计服装的方法。此外,还使用了绿屏和目标域数据集的混合现实数据集。我们的实验表明,设计服装的结构性域随机化以及混合现实数据提供了基线,可在临床目标域的测试数据集上实现72.0%的地图。当使用15%可用的目标域列车数据时,针对100%(660张图像)目标域列车数据的差距几乎可以关闭80.05%的地图(81.95%地图)。最后,我们表明,当使用100%目标域训练数据时,精度可以提高到83.35%的地图。
translated by 谷歌翻译
我们提出语言学家,这是一种通过微调Alexatm 5B生成带注释数据的方法,用于生成意图分类和插槽标记(IC+ST),这是一种5亿参数的多语言序列到序列(SEQ2SEQ)模型,在灵活的指令上迅速的。在SNIP数据集的10次新颖意图设置中,语言学家超过了最新的方法(反向翻译和示例外推),可以通过宽阔的边距,显示出IC回忆中+1.9点的目标意图的绝对改善ST F1分数和+2.5分。在MATIS ++数据集的零击跨语言设置中,语言学家表现出强大的机器翻译基线,插槽对齐的基线是+4.14的+4.14点在6个语言上绝对在ST F1分数上,同时在IC上匹配IC的性能。最后,我们在用于对话代理IC+ST的内部大规模多语言数据集上验证了我们的结果,并显示了使用背面翻译,释义和插槽目录重新采样采样的基线的显着改进。据我们所知,我们是第一个展示大规模SEQ2SEQ模型的指导微调的人,以控制多语言意图和插槽标记的数据生成的输出。
translated by 谷歌翻译
元梯度方法(Xu等,2018; Zahavy等,2020)为非平稳加强学习问题中的超参数选择和适应性提供了有希望的解决方案。但是,尚未系统地研究此类环境中元梯度的特性。在这项工作中,我们在非平稳环境中对元级别的新清晰度进行了新的清晰度。具体而言,我们问:(i)应向学习的优化者提供多少信息,以使一生中更快地适应和概括,(ii)在此过程中学习了什么元访问功能,以及(iii)是否)元梯度方法在高度非平稳的环境中提供了更大的优势。为了研究提供给元淘汰的信息的影响,如最近的作品(Flennerhag等,2021; Almeida等,2021),我们用学识渊博的元参数功能替换了固定更新规则的调谐元参数选定的上下文功能。上下文功能携带有关代理性能和环境变化的信息,因此可以告知学习的元参数计划。我们发现,添加更多的上下文信息通常是有益的,从而导致元参数值更快地适应并在一生中提高绩效。我们通过对结果的元参数计划和上下文特征的学习功能进行定性分析来支持这些结果。最后,我们发现没有上下文,在高度非平稳的环境中,元梯度并不能比基线提供一致的优势。我们的发现表明,情境化的元梯度可以在非平稳设置中的元梯度中提取高性能方面发挥关键作用。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
从数字艺术到AR和VR体验,图像编辑和合成已经变得无处不在。为了生产精美的复合材料,需要对相机进行几何校准,这可能很乏味,需要进行物理校准目标。代替传统的多图像校准过程,我们建议使用深层卷积神经网络直接从单个图像中直接从单个图像中推断摄像机校准参数,例如音高,滚动,视场和镜头失真。我们使用大规模全景数据集中自动生成样品训练该网络,从而在标准L2误差方面产生了竞争精度。但是,我们认为将这种标准误差指标最小化可能不是许多应用程序的最佳选择。在这项工作中,我们研究了人类对几何相机校准中不准确性的敏感性。为此,我们进行了一项大规模的人类感知研究,我们要求参与者以正确和有偏见的摄像机校准参数判断3D对象的现实主义。基于这项研究,我们为摄像机校准开发了一种新的感知度量,并证明我们的深校准网络在标准指标以及这一新型感知度量方面都优于先前基于单像的校准方法。最后,我们演示了将校准网络用于多种应用程序,包括虚拟对象插入,图像检索和合成。可以在https://lvsn.github.io/deepcalib上获得我们方法的演示。
translated by 谷歌翻译